40 research outputs found

    Snooze: A Scalable, Fault-Tolerant and Distributed Consolidation Manager for Large-Scale Clusters

    Get PDF
    International audienceIntelligent workload consolidation and dynamic cluster adaptation offer a great opportunity for energy savings in current large-scale clusters. Because of the heterogeneous nature of these environments, scalable, fault-tolerant and distributed consolidation managers are necessary in order to efficiently manage their workload and thus conserve energy and reduce the operating costs. However, most of the consolidation managers available nowadays do not fulfill these requirements. Hence, they are mostly centralized and solely designed to be operated in virtualized environments. In this work, we present the architecture of a novel scalable, fault-tolerant and distributed consolidation manager called Snooze that is able to dynamically consolidate the workload of a software and hardware heterogeneous large-scale cluster composed out of resources using the virtualization and Single System Image (SSI) technologies. Therefore, a common cluster monitoring and management API is introduced, which provides a uniform and transparent access to the features of the underlying platforms. Our architecture is open to support any future technologies and can be easily extended with monitoring metrics and algorithms. Finally, a comprehensive use case study demonstrates the feasibility of our approach to manage the energy consumption of a large-scale cluster

    Energy-Aware Ant Colony Based Workload Placement in Clouds

    Get PDF
    With cloud computing becoming ubiquitous, cloud providers are starting to deploy increasing numbers of energy hungry data centers. Energy conservation then becomes essential, in order to decrease operation costs and increase the system reliability. One traditional approach to conserve energy in these environments is to perform workload (i.e., VM) consolidation. Thereby, workload is packed on the least number of physical machines in order to increase the resource utilization and thus be able to transition parts of the resources into a lower power state. However, most of the workload consolidation approaches applied until now are limited to a single resource (e.g., CPU) and rely on relatively simple greedy algorithms such as First-Fit Decreasing (FFD), which perform resource-dissipative workload placement. In this work, we model the workload placement problem as an instance of the multi-dimensional bin-packing (MDBP) problem and design a novel, nature-inspired algorithm based on the Ant Colony Optimization (ACO) meta-heuristic to compute the placement dynamically, according to the current load. We evaluate the ACO-based approach by comparing it with one frequently applied greedy algorithm (i.e., FFD). Our simulation results demonstrate that ACO outperforms the evaluated greedy approach as it achieves superior energy gains through better server utilization and requires less machines.Avec le succès des services Cloud, les fournisseurs de ces services déploient de plus en plus de centres de données gourmands en énergie. Pour réduire les coûts et augmenter la fiabilité du système, économiser l'énergie devient essentiel. Une approche courante pour économiser de l'énergie dans ces environnements consiste à grouper les charges de travail (c'est-à-dire à grouper les machines virtuelles). Ainsi, la charge de travail est regroupée sur le plus petit nombre de machines physiques possible pour maximiser l'usage de ce sous-ensemble des ressources, et pouvoir ainsi mettre les autres ressources qui sont sous-utilisées en mode d'économie d'énergie. Cependant, jusqu'à présent, la plupart des approches fondées sur le regroupement des charges de travail se limitent à la prise en compte d'un seul type de ressource (par exemple, le processeur) et reposent sur des algorithmes gloutons relativement simples tel que le First-Fit Decreasing (FDD), qui gaspillent les ressources. Dans cet article, nous modélisons le problème du placement de charges de travail en tant qu'une instance du problème de bin-packing multi-dimensionnel, et nous construisons un nouvel algorithme bio-inspiré utilisant une méta heuristique d'optimisation inspirée des colonies de fourmis (Ant Colony Optimization, ACO) qui calcule les placements dynamiquement en fonction de la charge courante. Nous évaluons l'algorithme ACO en le comparant à l'algorithme glouton traditionnel (l'algorithme FDD). Les résultats de simulation montrent que l'algorithme ACO surpasse l'approche gloutonne en améliorant le gain d'énergie par une meilleure utilisation des serveurs et en exigeant moins de machines

    Energy Management in IaaS Clouds: A Holistic Approach

    Get PDF
    International audienceEnergy efficiency has now become one of the major design constraints for current and future cloud data center operators. One way to conserve energy is to transition idle servers into a lower power-state (e.g. suspend). Therefore, virtual machine (VM) placement and dynamic VM scheduling algorithms are proposed to facilitate the creation of idle times. However, these algorithms are rarely integrated in a holistic approach and experimentally evaluated in a realistic environment. In this paper we present the energy management algorithms and mechanisms of a novel holistic energy-aware VM management framework for private clouds called Snooze. We conduct an extensive evaluation of the energy and performance implications of our system on 34 power-metered machines of the Grid'5000 experimentation testbed under dynamic web workloads. The results show that the energy saving mechanisms allow Snooze to dynamically scale data center energy consumption proportionally to the load, thus achieving substantial energy savings with only limited impact on application performance

    Energy Management in IaaS Clouds: A Holistic Approach

    Get PDF
    Energy efficiency has now become one of the major design constraints for current and future cloud data center operators. One way to conserve energy is to transition idle servers into a lower power-state (e.g. suspend). Therefore, virtual machine (VM) placement and dynamic VM scheduling algorithms are proposed to facilitate the creation of idle times. However, these algorithms are rarely integrated in a holistic approach and experimentally evaluated in a realistic environment. In this paper we present the energy management algorithms and mechanisms of a novel holistic energy-aware VM management framework for private clouds called Snooze. We conduct an extensive evaluation of the energy and performance implications of our system on 34 power-metered machines of the Grid'5000 experimentation testbed under dynamic web workloads. The results show that the energy saving mechanisms allow Snooze to dynamically scale data center energy consumption proportionally to the load, thus achieving substantial energy savings with only limited impact on application performance.La performance énergétique est maintenant devenue l'une des contraintes majeures pour les opérateurs actuels et futurs de centres de cloud. Une des manières de conserver l'énergie est de faire passer les serveurs inutilisés dans un état de consommation moindre (par exemple, 'suspend'). Par conséquent, des algorithmes de placement et d'ordonnancement dynamique de machine virtuelle (MV) ont été proposés pour faciliter la création de périodes d'inactivité. Cependant ces algorithmes sont rarement intégrés dans une solution complète, et rarement évalués de manière expérimentale dans un environnement réaliste. Dans cet article, nous présentons les algorithmes et mécanismes de gestion d'énergie de Snooze, un système novateur de gestion de MV pour centres de cloud privés. Nous effectuons une évaluation approfondie des implications en terme d'énergie et de performance de ce système en reproduisant une charge typique des applications web dynamiques, sur 34 machines de la plateforme d'expérimentation Grid'50000, dont la consommation en énergie peut être mesurée. Les résultats montrent que les mécanismes de conservation d'énergie de Snooze lui permettent d'adapter la consommation énergétique d'un centre de cloud proportionnellement à la charge, conduisant ainsi à des gains significatifs en terme de consommation énergétique, avec un impact limité sur les performances de l'application

    Independent Checkpointing in a Heterogeneous Grid Environment

    Get PDF
    The EU-funded XtreemOS project implements an open-source grid operating system based on Linux. In order to provide fault tolerance and migration for grid applications, it integrates a distributed grid-checkpointing service called XtreemGCP. This service is designed to support different checkpointing protocols and to address the underlying grid-node checkpointers (e.g. BLCR, LinuxSSI, OpenVZ, etc.) in a transparent manner through a uniform interface. In this paper, we present the integration of an independent checkpointing and rollback-recovery protocol into the XtreemGCP. The solution we propose is not checkpointer bound and thus can be transparently used on top of any grid-node checkpointer. To evaluate the prototype we run it within a heterogeneous environment composed of single-PC nodes and a Single System Image (SSI) cluster. The experimental results demonstrate the capability of the XtreemGCP service to integrate different checkpointing protocols and independently checkpoint a distributed application within a heterogeneous grid environment. Moreover, the performance evaluation also shows that our solution outperforms the existing coordinated checkpointing protocol in terms of scalability.Le projet XtreemOS financé par l'Union Européenne met en oeuvre un système d'exploitation open-source pour grille basé sur Linux. Afin d'offrir tolérance aux fautes et migration d'applications pour grilles, il intéragit avec un service distribué de sauvegarde de points de reprise de processus appelé XtreemGCP. Ce service est conçu pour supporter différents protocoles de sauvegarde de points de reprise de processus et pour s'interfacer avec les systèmes de sauvegarde de points de reprise sous-jacents (par exemple BLCR, LinuxSSI, OpenVZ, etc.) de manière transparente à travers une interface uniforme. Dans cet article, nous présentons l'intégration d'un protocole indépendant de sauvegarde de points de reprise et de retour arrière dans XtreemGCP. La solution que nous proposons n'est pas limitée par le système de sauvegarde de points de reprise et peut ainsi être utilisée de façon transparente au-dessus de n'importe lequel. Nous évaluons ce prototype en l'exécutant dans un environnement hétérogène composé de simples noeuds PC et d'une grappe basée sur un système à image unique (SSI). Les résultats expérimentaux démontrent la capacité du service XtreemGCP à intégrer les différents protocoles de sauvegarde de points de reprise et à sauvegarder de manière indépendante un point de reprise d'une application distribuée s'exécutant sur un environnement de grille hétérogène. De plus, les évaluations de performance montrent que notre solution surpasse les protocoles coordonnés existants en terme de passage à l'échelle

    Snooze: A Scalable, Fault-Tolerant and Distributed Consolidation Manager for Large-Scale Clusters

    Get PDF
    Intelligent workload consolidation and dynamic cluster adaptation offer a great opportunity for energy savings in current large-scale clusters. Because of the heterogeneous nature of these environments, scalable, fault-tolerant and distributed consolidation managers are necessary in order to efficiently manage their workload and thus conserve energy and reduce the operating costs. However, most of the consolidation managers available nowadays do not fulfill these requirements. Hence, they are mostly centralized and solely designed to be operated in virtualized environments. In this work, we present the architecture of a novel scalable, fault-tolerant and distributed consolidation manager called Snooze that is able to dynamically consolidate the workload of a software and hardware heterogeneous large-scale cluster composed out of resources using the virtualization and Single System Image (SSI) technologies. Therefore, a common cluster monitoring and management API is introduced, which provides a uniform and transparent access to the features of the underlying platforms. Our architecture is open to support any future technologies and can be easily extended with monitoring metrics and algorithms. Finally, a comprehensive use case study demonstrates the feasibility of our approach to manage the energy consumption of a large-scale cluster.Une consolidation intelligente des charges applicatives et une adaptation dynamique des grappes de calculateurs offrent des opportunités importantes d'économiser l'énergie dans les grappes de calculateurs actuelles. Étant donnée la nature hétérogène de ces environnements, il est nécessaire de fournir des gestionnaires de consolidation passant à l'échelle, tolérants aux fautes, et distribués, afin de gérer efficacement les charges applicatives de ces grappes et ainsi économiser l'énergie et réduire les coûts opérationnels. Cependant, la plupart des gestionnaires de consolidation disponibles de nos jours ne satisfont pas ces critères. Ainsi, ces gestionnaires de consolidation sont pour la plupart centralisés et ne sont conçus que pour des environnements virtualisés. Dans ce travail, nous présentons l'architecture d'un nouveau gestionnaire de consolidation passant à l'échelle, tolérant aux fautes, et distribué, appelé Snooze, qui est capable de consolider dynamiquement la charge applicative d'une grappe hétérogène du point de vue logiciel comme du point de vue matériel, de grande taille, et composée de ressources utilisant les technologies de virtualisation et de système à image unique (SSI). Pour cela une API commune pour la supervision et la gestion d'une grappe est présentée. Cette API permet d'accéder de façon uniforme et transparente aux fonctionnalités des plates-formes sous-jacentes. Notre architecture est ouverte afin d'être adaptable aux technologies futures, et peut être étendue aisément avec d'autres métriques et algorithmes de supervision. Enfin, une étude complète de cas d'utilisation montre la faisabilité de notre approche pour gérer la consommation d'énergie d'une grappe de grande taille

    Gestion autonome et économique en énergie des grands centres de données virtualisés

    No full text
    Large-scale virtualized data centers require cloud providers to implement scalable, autonomic, and energy-efficient cloud management systems. To address these challenges this thesis provides four main contributions. The first one proposes Snooze, a novel Infrastructure-as-a-Service (IaaS) cloud management system, which is designed to scale across many thousands of servers and virtual machines (VMs) while being easy to configure, highly available, and energy efficient. For scalability, Snooze performs distributed VM management based on a hierarchical architecture. To support ease of configuration and high availability Snooze implements self-configuring and self-healing features. Finally, for energy efficiency, Snooze integrates a holistic energy management approach via VM resource (i.e. CPU, memory, network) utilization monitoring, underload/overload detection and mitigation, VM consolidation (by implementing a modified version of the Sercon algorithm), and power management to transition idle servers into a power saving mode. A highly modular Snooze prototype was developed and extensively evaluated on the Grid'5000 testbed using realistic applications. Results show that: (i) distributed VM management does not impact submission time; (ii) fault tolerance mechanisms do not impact application performance and (iii) the system scales well with an increasing number of resources thus making it suitable for managing large-scale data centers. We also show that the system is able to dynamically scale the data center energy consumption with its utilization thus allowing it to conserve substantial power amounts with only limited impact on application performance. Snooze is an open-source software under the GPLv2 license. The second contribution is a novel VM placement algorithm based on the Ant Colony Optimization (ACO) meta-heuristic. ACO is interesting for VM placement due to its polynomial worst-case time complexity, close to optimal solutions and ease of parallelization. Simulation results show that while the scalability of the current algorithm implementation is limited to a smaller number of servers and VMs, the algorithm outperforms the evaluated First-Fit Decreasing greedy approach in terms of the number of required servers and computes close to optimal solutions. In order to enable scalable VM consolidation, this thesis makes two further contributions: (i) an ACO-based consolidation algorithm; (ii) a fully decentralized consolidation system based on an unstructured peer-to-peer network. The key idea is to apply consolidation only in small, randomly formed neighbourhoods of servers. We evaluated our approach by emulation on the Grid'5000 testbed using two state-of-the-art consolidation algorithms (i.e. Sercon and V-MAN) and our ACO-based consolidation algorithm. Results show our system to be scalable as well as to achieve a data center utilization close to the one obtained by executing a centralized consolidation algorithm.Les grands centres de données virtualisés nécessitent que les fournisseurs de nuages informatiques mettent en œuvre des systèmes de gestion de machines virtuelles passant à l'échelle, autonomes et économiques en énergie. Pour répondre à ces défis, cette thèse apporte quatre contributions principales. La première est la proposition d'un nouveau système de gestion de nuages IaaS, Snooze, qui a été conçu pour gérer plusieurs milliers de serveurs et de machines virtuelles (VMs) tout en étant facile à configurer, hautement disponible et économique en énergie. Pour le passage à l'échelle, Snooze gère les VM de manière distribuée sur la base d'une architecture hiérarchique. Pour offrir la facilité de configuration et la haute disponibilité, Snooze met en œuvre des mécanismes d'auto-configuration et d'autoréparation. Finalement, pour l'efficacité énergétique, Snooze est fondé sur une approche globale à travers la surveillance de la consommation de ressources (i.e. CPU, mémoire, réseau) des VMs, la détection et la résolution des situations de sous-charge et de surcharge, la consolidation de VMs (par la mise en œuvre d'une version modifiée de l'algorithme Sercon) et la gestion de la consommation d'énergie en faisant passer les serveurs inactifs dans un mode de faible consommation énergétique. Un prototype modulaire du système Snooze a été développé et a fait l'objet d'une évaluation approfondie à l'aide d'applications réalistes sur la plate-forme Grid'5000. Les résultats montrent que (i) la gestion distribuée des VMs est sans impact sur le temps de soumission, (ii) les mécanismes de tolérance aux fautes n'ont pas d'impact sur les performances des applications, et que le système passe à l'échelle avec le nombre de ressources, ce qui fait qu'il est approprié pour les grands centres de données. Nous montrons également que le système est capable d'adapter la consommation énergétique du centre de données par rapport à sa charge permettant donc de substantielles économies d'énergie avec seulement un impact limité sur les performances des applications. Snooze est un logiciel libre sous licence GPLv2. La seconde contribution est un nouvel algorithme de placement de VMs fondé sur la méta-heuristique d'optimisation par colonies de fourmis (ACO). L'ACO est intéressante pour le placement de VMs en raison de sa complexité dans le pire cas polynomiale, de ses solutions proches de l'optimal et de sa facilité de parallélisation. Les résultats de simulation montrent que le passage à l'échelle de la mise en œuvre actuelle de l'algorithme est limité à un petit nombre de serveurs et de VMs. Cependant, l'algorithme se comporte mieux que l'approche gloutonne First-Fit-Decreasing pour le compactage des VMs et qu'il calcule des solutions proches de l'optimal. Pour une consolidation de VMs passant à l'échelle, cette thèse apporte deux contributions supplémentaires : (i) un algorithme de consolidation fondé sur l'ACO, (ii) un système de consolidation totalement décentralisé fondé sur un réseau pair-à-pair non structuré. L'idée clé est d'appliquer la consolidation dans de petits groupes de serveurs formés aléatoirement. Nous avons évalué notre approche par émulation sur la plate-forme Grid'5000 en utilisant deux algorithmes de consolidation existants (i.e. Sercon et V-MAN) ainsi que notre algorithme fondé sur l'ACO. Les résultats montrent que notre système passe à l'échelle et permet d'obtenir un taux d'utilisation du centre de données proche de celui qui serait obtenu avec un algorithme de consolidation centralisé

    Automatic and energy-efficient management of large scale virtualized data centers

    No full text
    Cette thèse propose Snooze, un système autonome et économique en énergie pour des clouds "Infrastructure-as-a-Service" (IaaS). Pour le passage à l échelle, la facilité d administration et la haute disponibilité, Snooze repose sur une architecture hiérarchique auto-configurable et auto-réparante. Pour la gestion de l énergie, Snooze intègre la surveillance des ressources utilisées par les machines virtuelles (VM), la résolution des situations de sous-charge et de surcharge des serveurs, la gestion de leur alimentation électrique et le regroupement de VMs. Un prototype robuste du système Snooze a été développé et évalué avec des applications réalistes sur la plate-forme Grid 5000. Pour favoriser les périodes d inactivité des serveurs dans un cloud IaaS, il faut placer les VMs judicieusement et les regrouper. Cette thèse propose un algorithme de placement de VMs fondé sur la méta-heuristique d optimisation par colonies de fourmis (ACO). Des simulations ont montré que cet algorithme calcule des solutions proches de l optimal, meilleures que celles de l algorithme "First-Fit-Decreasing" au prix d un moins bon passage à l échelle. Pour le passage à l échelle du regroupement de VMs, cette thèse apporte deux autres contributions : un algorithme de regroupement de VMs fondé sur l'ACO et un système de regroupement de VMs complètement décentralisé fondé sur un réseau pair-à-pair non structuré de serveurs. Les résultats d émulation ont montré que notre système passe à l échelle et qu il permet d atteindre un taux d utilisation du centre de données proche de celui obtenu avec un système centralisé.Large-scale virtualized data centers now require cloud providers to implement scalable, autonomic, and energy-efficient cloud management systems. To address these challenges this thesis proposes Snooze, a novel highly available, easy to configure, and energy-efficient Infrastructure-as-a-Service (IaaS) cloud management system. For scalability and high availability Snooze integrates a self-configuring and healing hierarchical architecture. To achieve energy efficiency Snooze integrates a holistic energy management approach via virtual machine (VM) resource utilization monitoring, server underload/overload mitigation, VM consolidation, and power management. A robust Snooze prototype was developed and extensively evaluated on the Grid'5000 testbed using realistic applications. The experiments have proven Snooze to be scalable, highly available and energy-efficient. One way to favor servers idle times in IaaS clouds is to perform energy-efficient VM placement and consolidation. This thesis proposes a novel VM placement algorithm based on the Ant Colony Optimization (ACO) meta-heuristic. Simulation results have shown that the proposed algorithm computes close to optimal solutions and outperforms the evaluated First-Fit Decreasing algorithm at the cost of decreased scalability. To enable scalable VM consolidation, this thesis makes two further contributions: (i) an ACO-based VM consolidation algorithm; (ii) a fully decentralized VM consolidation system based on an unstructured peer-to-peer network of servers. Emulation conducted on the Grid'5000 testbed has proven our system to be scalable as well as to achieve data center utilization close to the one of a centralized system.RENNES1-BU Sciences Philo (352382102) / SudocSudocFranceF

    Autonomous and Energy-Aware Management of Large-Scale Cloud Infrastructures

    Get PDF
    International audienceWith the advent of cloud computing and the need for increasing amount of computing power, cloud infrastructure providers are now facilitating the deployment of large-scale data centers. In order to efficiently manage such environments three important properties have to be fulfilled by their resource management frameworks: (1) scalability; (2) autonomy (i.e. self-organization and healing); (3) energy-awareness. However, existing open-source cloud management stacks (e.g. Eucalyptus, Nimbus, OpenNebula, OpenStack) have a high degree of centralization and limited power management support. In this context, this PhD thesis focuses on more scalable, autonomic, and energy-aware resource management frameworks for large-scale cloud infrastructures. Particularly, a novel virtual machine (VM) management system based on a self-organizing hierarchical architecture called Snooze is proposed. In order to conserve energy, Snooze automatically transitions idle servers into a low-power mode (e.g. suspend). To favor idle times the system integrates a nature-inspired VM consolidation algorithm based on the Ant Colony Optimization (ACO)
    corecore